Reading Time: 1 minutes

最近の Microsoft Azure 停止のインシデントは、世界中の多くの企業や個人のサービスに混乱をもたらし、クラウド ソリューションのみに依存するITリスクを露呈しました。本インシデントは、技術的な障害と想定外の複雑さの組み合わせにより引き起こされ、様々な業界に大幅なダウンタイム、アクセスの問題、運用の中断を引き起こしました。影響は広範囲にまで及び、企業ではオフィスの電子メールにアクセスできなくなり、主要空港では飛行機の運航が停止するなど、多くの不便と混乱をもたらしました。

驚くべきことに、根本原因は悪意のあるサイバー攻撃ではなく、無害なソフトウェアのアップデートでした。著名なサイバーセキュリティ企業である CrowdStrike 社は、Falcon Sensor プログラムのアップデートを展開していましたが、不完全なアップデートにより Windows マシンがクラッシュし、今では悪名高いBSOD(ブルー スクリーン オブ デス )エラーが表示され、システムが使用できなくなりました。そして、影響範囲はさらに連鎖して、Microsoft の Azure クラウド プラットフォーム内で意図しない構成変更が開始されました。

本インシデントから得られた重要な教訓は次の 5 つです。

1. マルチクラウド戦略の導入

Microsoft の障害は、1 つのクラウド プロバイダーだけに依存することは多くの危険を伴う可能性があることを示唆しました。たとえば、金融サービス会社である Robinhood 社は、Azure 上のみホストしていた取引プラットフォームにアクセスできなくなり、深刻なダウンタイムを経験しました。単一障害のリスクを軽減するには、企業はマルチクラウド戦略を採用してクラウド インフラを多様化する必要があります。複数のクラウド プロバイダーにワークロードを分散することでレジリエンスを強化でき、必要に応じてプロバイダーを切り替えられる柔軟性を高められます。また、重要なアプリケーションを停止させないために、ミラーリングまたは別のクラウド サービスに移動できるアプリケーションも確定しておきます。 

2. 堅牢なバックアップ ソリューションに投資する

本インシデントは、停止中のデータ損失とダウンタイムによって生じる深刻な影響を想起させます。医療機関 Kaiser Permanente が停電中に患者の記録にアクセスできなくなったとき、バックアップ システムの必要性を改めて認識し、データをクラウド プロバイダーや地域分散をして定期的にバックアップすることが不可欠だと実感しました。自動バックアップ手順を確立し、停電時にも最新データが利用可能であることが望ましいです。データ損失を最小限に抑え、回復時間を短縮するには、バックアップおよび回復システムを定期的にテストし、平常時の運用に瞬時に戻れることを確認することが重要です。

3. 監視とアラートを強化する

本インシデントにより、監視および警報システムの重要性が明らかになりました。たとえば、Walmart社のオンライン ストアが長時間ダウンした際、そのインシデントに誰も気が付かなかったため多額の損失を被りました。そのため、高度な監視ツールを取り入れることが最良策です。監視ツールによって、クラウド インフラの機能を追跡でき、リアルタイムの通知機能で重大な混乱が生じる前に、異常事態やインシデントをIT スタッフに知らせることができます。また、AI 主導の分析と機械学習を使用することで、潜在的な懸念を予測し、インシデントを回避できます。このように、監視の枠組みを用意することで、ビジネスリスクを軽減し、継続的なシステム運用を保証する事前対策となります。

4. 詳細なインシデント対応計画を作成する

明示的かつプロアクティブなインシデント対応戦略により、ダウンタイムを最小限に抑えることができます。CrowdStrikeの問題はカリフォルニア大学バークレー校のオンライン授業やテストに影響を与え、教育現場に混乱をもたらしました。障害発生時に実行すべきアクション、ITスタッフの役割と義務を明確にして、計画が確実に実行できる包括的なインシデント対応計画を作成・準備しておくべきです。対応プロセスをドリルやシミュレーションで頻繁にテストし、問題なく機能していることを確認します。障害の状況と復旧の進捗状況などの最新情報を関係者にタイムリーに共有できるコミュニケーションフローも組み込みます。綿密に練られた対応計画があれば、瞬時の判断思考と効果的なチームワークが容易となり、サービス停止のインシデントが生じた際にも全体の影響を軽減できます。

5. ベンダーとの強力な関係を構築する

本インシデントにより、クラウド サービス プロバイダーとのコミュニケーションの重要性がますます高まりました。デルタ航空を始めとする多くの企業は、Microsoft社からタイムリーなアップデートや明確なコミュニケーションが欠如していたことに不満を伝えています。クラウド サービス プロバイダーとの強力なパートナーシップを確立し、オープンなコミュニケーション ラインの維持は大切であり、SLA(サービス水準についての合意) を定期的に確認し、ビジネス ニーズを満たしていることを検証することも重要です。サービスの停止中、プロバイダーからの迅速かつ明確な情報は、インシデント状況を正確に把握し、適切な措置を講じるために役立ちます。また、障害の原因を突き止め、その予防策を講じるためにも、インシデント発生後は、詳細なレポートを作成することを提唱します。ベンダーとの協力的関係を構築できれば、サービス機能停止を回避する手段を得ることができます。

本インシデントは、クラウドに依存する社会に内在する脆弱性を我々に知らしめました。クラウド サービスは比類ない利便性と拡張性をもたらしましたが、その分平常時に行うべきインシデント発生時への対応計画が重要となることを忘れてはなりません。企業はリスク管理に積極的な姿勢で、潜在的なトラブルに対処すべく包括的な戦略を準備する必要があるでしょう。多様なソリューション、効果的なコミュニケーション、綿密な事前対策を含む総合的な準備をすることにより、組織の事業を保護し、今後起こりえるサービス停止の影響を軽減できます。技術的な信頼性が最優先される現状では、レジリエンスと適応性が、企業の事業継続とIT運用を維持するための重要なポイントとなります。

本記事はグローバル本社のブログ記事を日本版に修正したものです。
原文はこちらをご参照ください。


フィードバックフォーム

当サイトで検証してほしいこと、記事にしてほしい題材などありましたら、以下のフィードバックフォームよりお気軽にお知らせください。